TRUST4免疫组库分析

Original 生信阿拉丁生信阿拉丁 2022-05-16

收录于合集

1.背景介绍

人体淋巴细胞主要包括T细胞、B细胞。B细胞约占外周淋巴细胞总数的20%，其主要功能是产生抗体介导体液免疫应答。

B细胞抗原受体（B cell receptor, BCR）是B细胞识别抗原的一种膜表面免疫球蛋白，具有抗原结合特异性。BCR由两条重链和两条轻链连接而成，其中重链分为可变区（V区）、恒定区（C区）、跨膜区及胞质区；轻链则只有V区和C区。V区由VH和VL两个结构域组成，它们各由三个互补决定区（CDR1、CDR2和CDR3）组成，CDR的氨基酸组成和排列顺序呈现高度多样性。

在同一个体内，可高达10⁹～10¹²，构成容量巨大的BCR库，赋予个体识别各种抗原、产生特异性抗体的巨大潜能，这三个CDR均参与对抗原的识别，共同决定BCR的抗原特异性。

T细胞主要功能是介导细胞免疫。T细胞抗原受体（T cell receptor，TCR）是T细胞特异性识别和结合抗原肽-MHC分子的分子结构，大多数TCR由α和β肽链组成，少数T细胞的TCR由γ和δ肽链组成。每条肽链又可分为可变区(V区)，恒定区(C区)，跨膜区和胞质区等几部分，而α和β两条肽链的V区（Vα、Vβ）又各有三个高变区CDR1、CDR2、CDR3，其中以CDR3变异最大，直接决定了TCR的抗原结合特异性。TCR的CDR3由V、D、J三个基因编码，在淋巴细胞的成熟过程中，通过V、D、J基因的重排形成了各种重组序列片段，再加上DNA碱基的SNP、Indel突变形成了T细胞的多样性。

免疫组库（Immune Repertoire，IR）是指某个个体在任何特定时间点其循环系统中所有功能多样性B淋巴细胞和T淋巴细胞的总和，拥有6种主要的肽链，分别为BCR的轻链和重链、TCR的α、β、γ和δ链。免疫组库中每一种免疫蛋白彼此间结构差异很小，但亚型种类繁多，正是这种多样性对健康起着至关重要的作用，免疫蛋白的亚型越多，越能有效抵抗病原体，亚型越少越容易感染疾病。除此之外，其它很多年龄、环境、疾病诱发以及用药等因素也影响着免疫组库的多样性。免疫组库反映机体免疫系统在特定时间段内应对外界刺激应答的能力。

从群体的角度讲，人类的免疫大分子的多样性是十分可观的，因为人类几乎能对所有外来感染源产生免疫反应。可是在个体水平，我们的免疫组库的大小就有限了。

个体免疫组库的内容受三个因素的控制：遗传因素；抗原接触史；时时刻刻的免疫调控。个体化的免疫组库研究可以用来做疾病相关性研究，例如寻找Biomarker，对疾病机理进行一个全新角度的探讨，也可以促进对更多疾病的早期诊断、治疗甚至预防，可应用于疫苗和医药的研发、生物标志物的发现、微小残留病（Minimal Residual Disease,MRD）检测、自身免疫性疾病的研究以及移植后监测等领域，例如在疾病特异的生物标志物的研究中，可通过高通量测序在患有同种疾病的人群中找到疾病特异性的CDR3，经过验证后的这些CDR3序列就可以作为代表该病的并可以从外周血中查到的Biomarker；自身免疫性疾病的研究如类风湿性关节炎，可以通过高通量测序识别潜在自体反应克隆来定量早期或已确诊的类风湿性关节炎的外周血的T细胞组库，作为早期诊断用药的依据；关于疫苗的研发，我们可以通过分析不同年龄段的人群注射疫苗后的效果来促进针对不同人群的疫苗研发；对于肿瘤研究，我们可通过比较患者用药前后免疫组库的变化来监测疾病、指导用药，预防肿瘤复发。

研究者可以通过免疫组库测序（Immune Repertoire sequencing, IR-seq）全面评估免疫系统的多样性。该方法是以T/B淋巴细胞为研究目标，以多重PCR或5’RACE技术目的扩增决定B细胞受体（BCR）或T细胞受体（TCR）多样性的互补决定区（CDR区），再结合高通量测序技术，可以深入挖掘免疫组库与疾病的关系。

然而这种方法价格昂贵，而且需要珍贵的组织样本。于是研究者另辟蹊径，考虑到组织或者外周血（PBMC）中包含有表达的TCR和BCR序列，刘小乐课题组中Li Song等人在2021年6月开发了TRUST4工具，可以从组织或者外周血的RNA表达数据中挖掘免疫组库信息。早在2017年3月，该课题组开发出TRUST（Tcr Receptor Utilities for Solid Tissue）方法，TRUST4性能比TRUST有了更大的提升，既支持FASTQ格式，也支持BAM格式，并且在组装更长、甚至是全长受体库方面是更快、更灵敏的。TRUST4还可以从没有V(D)J富集的单细胞RNA-seq（scRNA-seq）数据中获取组库序列，并对SMART-seq和10× Genomics平台都是兼容的。

2.运行原理

TRUST首先将所测reads比对到参考基因组上，将比对上的reads组装成contigs，然后根据IMGT(International Immunogenetics Information System)进行注释：

具体细节可以参考下面这张图：

3.方法效果

首先对于bulk的RNA-seq数据，研究者在已知TRB序列生成的RNA-seq数据上使用了三种不同的方法，发现TRUST4比MiXCR多找出281%的CDR3s，比CATT多找出22.9%，比TRUST3多找出57.8%的CDR3s。接着，为了评估对BCRs的寻找效率，在有BCR-seq作为金标准的6个肿瘤RNA-seq数据上，TRUST4在5个数据上表现出更高的准确率和敏感性，同时只需要MiXCR所需20~25%的运行时间。最后，在全长组装方面，TRUST4和MiXCR都能检测出全部128个CDR3s，但是TRUST4可以组装出93个，而MiXCR只能组装出39个。

在单细胞数据上，研究者也做了一系列评估。在测试数据上，TRUST4可以检测到48.1%的TCR CDR3s和78.0%的BCR CDR3s。TRUST4比CellRanger_VDJ时间快10倍，节省2倍多的空间。

4.安装使用

TRUST4的安装非常简单，直接下载代码网址：https://github.com/liulab-dfci/TRUST4

git clone https://github.com/liulab-dfci/TRUST4.git

然后在下载的代码所在的文件夹中运行make 或者用conda安装：

conda install -c bioconda trust4

安装好之后，我们就可以使用TRUST4了。

Usage: ./run-trust4 [OPTIONS] Required: -b STRING: path to bam file -1 STRING -2 STRING: path to paired-end read files -u STRING: path to single-end read file -f STRING: path to the fasta file coordinate and sequence of V/D/J/C genes Optional:

    --ref STRING: path to detailed V/D/J/C gene reference file, such as from IMGT database. (default: not used). (recommended)

-o STRING: prefix of output files. (default: inferred from file prefix) --od STRING: the directory for output files. (default: ./) -t INT: number of threads (default: 1) --barcode STRING: if -b, bam field for barcode; if -1 -2/-u, file containing barcodes (defaul: not used) --barcodeRange INT INT CHAR: start, end(-1 for lenght-1), strand in a barcode is the true barcode (default: 0 -1 +) --barcodeWhitelist STRING: path to the barcode whitelist (default: not used) --read1Range INT INT: start, end(-1 for length-1) in -1/-u files for genomic sequence (default: 0 -1) --read2Range INT INT: start, end(-1 for length-1) in -2 files for genomic sequence (default: 0 -1) --mateIdSuffixLen INT: the suffix length in read id for mate. (default: not used) --skipMateExtension: do not extend assemblies with mate information, useful for SMART-seq (default: not used) --abnormalUnmapFlag: the flag in BAM for the unmapped read-pair is nonconcordant (default: not set) --noExtraction: directly use the files from provided -1 -2/-u to assemble (default: extraction first) --repseq: the data is from TCR-seq or BCR-seq (default: not set) --stage INT: start TRUST4 on specified stage (default: 0) 0: start from beginning (candidate read extraction) 1: start from assembly 2: start from annotation 3: start from generating the report table

TRUST4的输入文件主要有三个：

（1） RNA-seq的测序文件，可以是bam文件，-b，或者是fastq格式，双端测序用-1/-2，单端测序是-u。（2）包含V，J，C基因的基因序列和坐标，-f，网站已经提供了hg38_bcrtcr.fa和hg19_bcrtcr.fa （3）包含注释信息的参考数据库序列，--ref，比如IMGT

下载IMGT序列文件：

perl BuildImgtAnnot.pl Homo_sapien > IMGT+C.fa

这一步会从IGMT网站下载：

运行TRUST4后得到的几个文件中，trust_raw.out和trust_final.out是contigs和对应的核酸权重；trust_annot.fa是组装注释文件，trust_cdr3.out记录了每个组装的CDR1,2,3和基因信息，trust_report.tsv主要记录了CDR3的信息。

参考文献

Song, L., Cohen, D., Ouyang, Z. et al. TRUST4: immune repertoire reconstruction from bulk and single-cell RNA-seq data. Nat Methods (2021).

作者：Resther

审稿：童蒙

编辑：angelica

往期精彩回顾